100-LongBench: ¿Los benchmarks de contexto largo evalúan realmente la capacidad?
Descubre por qué los benchmarks actuales como LongBench no miden correctamente la capacidad de contexto largo de los LLMs y cómo una nueva métrica lo soluciona.
Descubre por qué los benchmarks actuales como LongBench no miden correctamente la capacidad de contexto largo de los LLMs y cómo una nueva métrica lo soluciona.